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基于 AHP 和 混合 Apriori-Genetic 算法 的 交通 事故 成 因 分 析 模 型 
邓 晓 衡 ， 曾 德 
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摘 要 : 针对 交通 事故 数据 多 维 多 层 的 特点 ， 对 交通 事故 的 主要 成 因 与 潜在 规律 进行 了 研究 。 从 驾驶 员 、 车 辆 、 时 间 
一 地 点 、 环 境 四 个 维度 出 发 ， 提 出 了 基于 层次 分 析 法 (AHP) 和 混合 Apriori-Genetic 的 模型 挖掘 事故 成 因 。 首 先 ， 引 
入 AHP 对 事故 请 发 因素 进行 重要 度 排序 ， 在 客观 ee 筛选 出 引发 交通 事故 的 主要 因素 ; 其 
次 ， 结 合 混 合 的 Apriori 和 遗传 算法 对 主要 因素 进 向 分 析 ， 找 出 关联 规则 ， 提 高 挖 据 的 准确 性 。 相 关 对 比 实 验 的 结 
果 表 明 该 模型 可 以 减少 无 用 规则 的 产生 并 提高 挖 据 的 准确 性 ， 具 有 一 定 的 科学 意义 和 应 用 价值 。 
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Traffic accident causation analysis model based on AHP and hybrid Apriori-Gentic algorithm 
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Abstract: In view of the characteristic of multi-dimensional and multi-layer in traffic accident data, this paper proposed a new 
R= 和 model to research the main reasons and potential rules in traffic accidents. The model starts from the four main dimensions such 


as the drivers, the vehicles, the time-address and the environment, and uses a way which based on AHP and hybrid Apriori- 


Gentic algorithm to mine causes of accident. First of all, the AHP sorted the importance ofthe influencing factors about accident. 
一 Then on the basis of objective analysis, the model quantified the influencing factors and selected the main influencing factors. 
全 Finally the model combined the genetic algorithm with the Apriori to directional analyze the main influencing factors and find 
the association rules out. The experimental result Shows that the model could reduces the generation of useless rules and 
improves the accuracy of mining, which has certain Scientific significance and application value. 
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论 和 多 目标 综合 评价 方法 。 它 是 一 种 将 定性 与 定量 相 结合 的 
系统 分 析 方 法 ， 该 方法 将 一 个 复杂 问题 分 割 成 若干 层 ， 每 层 又 
近年 来 ， 随 着 中 国 的 汽车 和 驾驶 人 员 数 量 高 速 增长 ， 道 路 。 包含 若干 因素 ， 通 过 对 事物 的 复杂 本 质 和 相关 影响 因素 的 深入 
交通 压力 大 增 ， 交 通 事故 有 愈演愈烈 的 趋势 阅 。 同 时 中 国 是 世 ”分 析 后 ， 绘 制 清晰 的 层次 结构 图 ， 然 后 逐个 的 将 各 因素 建立 判 
界 上 交通 事故 死亡 人 数 最 多 的 国家 之 一 ， 中 国 公安 部 官方 最 新 ， 断 矩 阵 ， 通 过 计算 判断 矩阵 的 特征 值 和 特征 向 量 ， 得 到 不 同 因 
的 数据 显示 2015 年 全 国 交 通 事故 发 生 总 计 187781 起 R231, 伴随 ” 素 的 权重 ， 根 据 权 重 值 的 大 小 评价 结果 ， 选 出 最 佳 的 方案 。 
着 交通 事故 的 产生 ， 事 故 历史 数据 也 逐步 积累 。 为 了 探究 交通 与 此 同时 ， 为 了 提升 挖掘 的 准确 性 ， 模 型 针对 交通 事故 数 
事故 的 形成 原因 , 利用 数据 挖掘 技术 对 历史 事故 数据 进行 挖掘 ， 将 Apriori 与 遗传 算法 结合 使 用 。Apriori 算法 为 布尔 关联 
希望 能 够 找 出 数据 中 潜在 的 深层 规则 和 数据 模式 ， 从 而 为 交通 ”规则 挖掘 频繁 项 集 算 法 外。 它 使 用 一 种 称 作 逐 层 搜索 的 迭代 方 
事故 的 预防 提供 决策 支持 。 由 于 在 交通 事故 数据 中 诱发 交通 事 ”法 ，Kk 项 集 用 于 探索 k+1 项 集 ， 直 到 不 可 能 找到 更 大 的 频繁 项 
故 的 因素 众多 ， 加 上 事故 数据 集中 数据 字段 纷繁 复杂 且 元 余 信 ” 集 。 通 过 频繁 项 集 得 出 A=>B 形式 的 关联 规则 ， 对 于 每 一 条 规 
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息 很 多 ， 导 臻 成因 分 析 难 以 进行 。 为 此 本 模型 引入 了 层次 分 析 ” 则 主要 有 支持 度 和 置信 度 两 个 参数 进行 衡量 。 
法 进行 数据 预 处 理 。 遗传 算法 通过 模拟 达尔 文 自然 进化 的 思想 来 搜索 全 局 最 优 
层次 分 析 法 (AHP) 由 是 运筹 学 家 萨 带 提出 的 应 用 网 络 系统 。 解 ， 它 的 初始 种 群 是 由 随机 产生 的 规则 组 成 由。 对 每 条 染色 体 
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《规则 ) 进行 编码 ， 由 用 户 给 出 进化 过 程 中 的 适应 度 函 数 ， 根 。 有 更 好 的 表现 性 。 Chadokar 等 人 [提出 了 用 于 网 络 通信 的 混合 
据 适 者 生存 的 原则 ， 逐 代 优化 ， 形 成 由 当前 群体 中 最 适合 的 规 。 关联 规则 与 遗传 算法 ， 他 们 利用 Apriori 算法 处 理 网 络 通信 数 
则 以 及 这 些 规 则 的 后 代 组 成 的 新 群体 。 后 代 通 过 使 用 诸如 交 义 ” 据 ， 得 到 频繁 项 集 ， 之 后 再 将 频繁 项 集 通 过 遗传 算法 得 到 更 少 
和 变异 等 遗传 操作 来 创建 。 更 优 的 规则 ,实验 通过 对 比 单个 apriori 算法 和 混合 算法 的 时 间 
本 文 对 城市 交通 事故 成 因 分 析 展 开 研 究 , 以 贵阳 市 2015 年 。 复杂 度 和 产生 的 频繁 项 以 及 规则 数量 表明 混合 算法 可 以 减少 计 
全 年 交通 事故 历史 数据 外 为 分 析 依 据 ， 结 合 层次 分 析 法 和 混合 。 算 所 花费 的 时 间 ， 并 在 产生 的 规则 数量 上 更 少 ， 但 规则 质量 更 
的 Apriori-Genetic 算法 对 数据 进行 建 模 分 析 , 首先 以 AHP 算法 。 高 。 只 是 以 上 混合 算法 均 针对 特定 场景 设计 ， 不 具有 普 适 性 ， 
确定 影响 因素 权重 ， 选 择 主 影响 因子 ， 殊 除 次 要 因素 ， 简 化 运 ”如果 要 应 用 到 交通 事故 成 因 分 析 中 来 ， 需 要 重新 设计 。 
算 ， 同 时 采用 关联 规则 对 主因 素 字段 进行 关联 ， 通 过 遗传 算法 Jain 等 人 0 提出 了 优化 的 关联 规则 挖掘 算法 ， 他 们 提出 了 
优化 搜索 结果 。 从 而 探究 主因 素 背后 的 综合 作用 规律 与 交通 安 正 向 的 关联 规则 号 挖 气 和 负 向 的 关联 规则 0%17 挖 掘 ， 对 于 每 
全 的 详细 情况 , 如 道路 情况 及 其 他 交通 环境 对 事故 发 生 的 影响 ， ”条 规则 引入 了 相关 系数 的 概念 ， 使 用 遗传 算法 来 挖掘 有 效 的 正 
提高 数据 的 利用 价值 。 向 关联 规则 与 负 向 关联 规则 。 这 一 方法 可 以 减少 搜索 的 空间 同 
1 ”相关 工作 时 通过 每 条 关 Ce a 


适 进一步 的 挖掘 ， 但 此 模型 在 时 间 复 杂 度 上 效果 并 不 理想 。 
随 着 交通 事故 数据 的 大 量 积 累 ， 如 何 对 数据 建 模 研究 并 从 
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a nn 关联 规则 算 
法 可 以 产生 大 量 的 关联 规则 ， 对 于 探究 交通 事故 成 因 具 有 较 好 ”2.1 数据 描述 
的 适应 性 5 。 关 ei 根据 置 本 数据 由 贵阳 市 政府 在 2016 年 贵阳 市 交通 大 数据 竞赛 四 


言 度 发 现 关 联 规则 ， 但 在 交通 事故 数据 中 由 于 字段 过 多 ， 如 果 中 提供 。 原 始 的 交通 事故 历史 数据 以 excel 文本 的 形式 提供 ， 
直接 使 用 关联 规则 算法 会 产生 大 量 无 用 且 重 复 的 频繁 项 与 关联 。 共 56651 条 ， 含 二 十 多 个 字段 。 事 故 成 因 种 类 分 为 9 种 ， 有 具体 
规则 。 的 分 类 见 表 8。 通 过 引入 2015 年 贵阳 市 天 气 环境 数据 ， 形 成 了 


为 了 准确 地 找 出 交通 ee ne nm 最 终 的 数据 集 。 由 于 数据 中 字段 较 多 ， 无 法 直接 开展 关联 规则 
行 改进 与 优化 ， 使 其 可 以 更 好 的 应 用 到 交通 事故 研究 中 来 。 遗 分析。 
传 算法 的 搜索 根据 适应 度 函 数 进行 ， 具 有 很 强 的 方向 性 和 目的 2.2 层次 分 析 法 
提 


性 ， 可 以 弥补 Apriori 漫 无 目的 搜寻 的 缺陷 。 Ghosh 等 人 中 层次 分 析 法 将 定性 定量 相 结合 ， 迅 速 准确 的 找到 问题 的 关 
出 了 基于 遗传 算法 的 频繁 模式 挖掘 ， 他 们 将 遗传 算法 引入 到 员 键 ， 并 且 能 对 各 层次 影响 因素 权重 排序 。 故 将 其 引入 到 本 次 成 
物 复数 据 挖 握 中 ， 改 良 了 挖掘 的 过 程 ， 在 全 局 搜索 的 同时 减少 。 ” 因 分 析 的 模型 中 来 。 

了 时 间 复 杂 度 ， 这 一 方法 简单 高 效 ， 同 时 在 更 大 的 数据 集 方面 
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goal layer: G: Traffic Accident 
| 
Middle layer: Cl: Driver C2: Vehicle C3: Time-Address C4: Environment 
| 
| | 
S5: S6: 7 S8: 
Sl: S2: S3: S4: S9: S10: Sll: S12: S13: S15: 
scheme layer: Driving | | Driving | | Driver Way d 仿生 d 2 i The The The The Weather es ce Wind 
years gender age Of 1 2 1 2 time month Day address | condition condition 
training 
图 1 事故 数据 集中 的 系统 层次 结构 
zxF 阴 耳 到 新 握 空 和 
在 交通 事故 数据 集中 ， 数 据 字段 被 大 体 分 属 为 驾驶 员 类 、 表 1 目标 (goal) 层 与 中 间 (middle) 层 的 判断 和 矩阵 G-C 表 
车 辆 类 、 时 间 -地 点 类 、 环 境 类 四 个 不 同 的 维度 ， 如 图 1 中 系统 a i i 人 
层次 结构 图 所 示 。 在 与 贵 阳 市 通 管理 局 及 交通 领域 相 关 专 家 学 cl 1 5 村 2 
者 共同 交流 分 析 后 ， 结 合 专家 知识 ， 参 照 ahp 的 9 分 位 比率 ， i i pe 
构造 了 上 下 层次 的 判断 矩阵 ， 并 进行 矩阵 一 致 性 的 检验 ， 构 造 a i i oe 
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表 2 ”中间 (middle) 层 与 方案 (scheme) 层 的 判断 矩阵 C1-S 表 6 列 出 了 部 分 的 计算 结果 及 中 间 值 , @ 代表 相应 矩阵 最 大 特 
cl Sl S2 S3 S4 征 值 对 应 的 特征 向 量 。 最 终 可 以 得 出 方案 层 中 每 个 属性 相对 于 
Sl 1 5 3 2 标 层 的 权重 值 ， 选 取 权 重大 于 某 一 阔 值 的 字段 作为 影响 交通 
S2 1/5 1 1/3 112 事故 的 主要 因素 ， 现 经 过 经 验 测 试 选取 合适 的 闷 值 为 0.044。 
S3 1/3 3 1 2 表 6 部 分 计算 的 结果 及 中 间 值 
S4 1/2 2 1/2 1 G-C C1-S C2-S C3-S 
Cu 0.4773 0.4909 0.1377 0.4673 
表 3 中 间 层 (middle) 与 方案 scheme) 层 的 判断 矩阵 C2-S Oo 0.0809 0.0863 0.1258 0.1601 
C2 S5 S6 S7 S8 Ca 0.1539 0.2483 0.2879 0.2772 
S5 1 1 1/2 1/3 Oils 0.2880 0.1745 0.4486 0.0954 
S6 1 1 1/3 1/3 A 4.0211 4.1074 4.0458 4.0310 
S7 2 3 1 1/2 CI 0.007 0.0358 0.0153 0.0103 
S8 3 3 2 1 CR 0.0078 0.039 0.017 0.0011 
表 4 中间 (middle) 层 与 方案 (scheme) 层 的 判断 矩阵 C3-8 通过 层次 分 析 法 对 照 表 7 中 的 数据 可 以 发 现 准 则 层 中 的 


Driver 相对 目标 层 Traffic Accident 所 占 权 重 为 0.4773， 而 方案 


C3 S9 S10 S11 S12 
S9 1 3 2 4 屋 中 Driver age 相对 Driver 所 占 权 重 为 0.4909， 故 Driver age 
S10 1/3 1 112 2 字段 相对 于 Traffic Accident 所 占 的 权重 为 
S11 1/2 2 1 3 0.4773*0.4909=0.2343; 同 理 将 方案 层 中 每 个 字段 相对 于 目标 层 
S12 1/4 112 1/3 1 Traffic Accident 所 占 权 重 依次 计算 ， 选 取 最 终 权 重大 于 阔 值 的 
字段 做 为 主要 事故 影响 因素 。 
表 5 ”中间 (middle) 层 与 方案 scheme) 层 的 判断 矩阵 C4-S 表 7 各 字段 属性 相对 目标 层 的 权重 值 排列 
C4 S13 S14 S15 criterion layer Weight scheme layer Weight 
S13 1 5 3 Driving years 0.4909 
S14 1/5 1 1/3 Driver 0.4773 Driving gender 0.0863 
S15 1/3 3 1 Driver age 0.2483 
Way oftraining 0.1745 
之 后 判断 上 述 和 矩阵 能 否 通 过 一 致 性 检验 ， 计 算 矩 阵 的 最 大 Car brand 1 0.1377 
特征 值 (如 下 所 示 ) 和 其 对 应 的 特征 向 量 ， 以 及 相应 的 一 致 性 Vehicle Gs Gotland Ds 
指标 CI 和 检验 系数 CR 值 。 Car color 1 0.2879 
Nx =4.0211] 4 =4.1074 43 =4.0458 Car color 2 0.4486 
ha4 =4.0310 4s =3.0385 The day 0.2772 
CI 代表 和 矩阵 的 一 致 性 ，CI 越 大 , 说 明 一 致 性 越 差 | 考虑 到 Time- 0.1539 The month 0.1601 
一 致 性 的 偏离 可 能 是 由 于 随机 原因 造成 的 ， 因 此 在 检验 判断 拢 二 Thetime 0.4673 
阵 是 否 具 有 满意 的 一 致 性 时 ， 还 需 将 CI 和 平均 随机 一 致 性 指 The address 0.0954 
标 RI 进行 比较 ， 得 出 最 终 检验 系数 CR。 计 算 公式 分 别 如 下 所 Weathereondition 0 .6369 
不 : Environment 0.2880 Temperature 0.1047 
CI= 人 0) Wind condition 0.2583 
2 CI @) 2.3 混合 的 Apriori-Genetic 算法 
RI 结合 遗传 算法 的 优点 ， 本 文 设 计 了 一 种 针对 交通 事故 成 因 
平均 随机 一 致 性 指标 RI 的 值 可 以 通过 查 平 均 随 机 一 致 性 分析 的 混合 遗传 关联 规则 挖掘 算法 , 采用 Apriori 来 发 现 输入 数 
指标 标准 值 表 得 到 , 它 只 和 和 矩阵 的 阶 数 相 关 。 当 和 矩阵 的 阶 数 n=3 ” 据 中 的 频繁 项 集 。 通 过 将 频繁 项 按 某 种 形式 进行 编码 转换 为 染 
时 ，RI 取 0.58; 当 矩 阵 的 阶 数 n=4 时 ，RI 取 0.90。 对 于 每 个 矩 ” 色 体 ， 将 这 批 染 色 体 作为 遗传 算法 的 初始 种 群 ， 再 根据 预定 义 
阵 ， 如 果 最 终 计算 出 来 的 CR 值 远 小 于 0.1， 则 说 明和 矩 阵 的 一 致 ”的 适应 度 函 数 对 每 条 染色 体 计算 其 适应 值 ， 通 过 选择 适应 值 高 
性 检验 通过 , 可 以 进行 下 一 步 的 工作 , 否则 重新 分 析 构 造 矩 阵 。 的 一 批 染色 体 进 行 复制 ， 通 过 遗传 操作 〈 选 择 ， 交 叉 ， 变 异 ) 
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产生 新 的 一 代 群 体 。 通 过 不 断 的 繁殖 进化 ， 最 后 收敛 到 一 批 具 


有 较 高 适应 度 的 个 体 | 


有 


“4 


输出 最 优 分 类 规则 集 。 混 合算 法 的 光 


上 或 者 迭代 的 次 数 达到 


了 预 设 定 的 阔 值 ， 


图 如 图 2 所 示 。 


Apriori algorithm 


Start Load DataSet 
Association rules Apply proposed 
optimized Genetic algorithm 


图 2 


混合 


2.3.1 编码 设计 


对 于 交通 事故 数据 集 ， 将 影响 交通 习 
件 部 分 , 将 交通 事故 原因 类 型 作为 规则 


applied on dataset 


Frequent item sets 


对 


法 的 总 体 流程 


龄 、 年 龄 、 培 训 鸭 校 、 时 间 等 字段 二 事 


规则 的 前 件 中 每 一 个 特征 属性 (如 


的 规则 ， 


和 故 的 因素 作为 规则 前 
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邓 晓 衡 ， 等 : 基于 AHP 和 混合 Apriori-Genetic 算法 的 交通 事故 成 因 分 析 模 型 
表 9 驾龄 字段 的 分 类 与 对 照 表 
Label Mean 
驾龄 ] 0-4 years 
驾龄 2 5-11 years 
驾龄 3 12-19 years 
驾龄 4 20 years and more 


2.3.2 定义 适应 度 函 数 
适应 度 函 数 是 用 来 评价 个 体 适 应 环境 的 能 力 ， 是 进行 自然 
选择 的 依据 。 对 于 期 望 的 规则 可 以 使 用 支持 度 ， 置 信和 度 ， 和 覆盖 
度 等 多 种 指标 进行 评价 。 在 适应 度 函 数 设计 中 , 基于 综合 考虑 ， 
令 适 应 度 函 数 
F(r)=a*S(r)+b*C(r)+c*CR(r) (4) 
其 中 : 变量 r 代表 规则 ，a，b，c 均 为 常量 系数 并 且 a, b,c 的 
取 值 范围 为 [0,1]。 令 N 为 整个 数据 集 的 记录 数 ，C 为 规则 中 除 
去 “事故 原因 类 型 ”属性 后 的 其 他 字段 ，C 在 N 中 出 现 的 频数 


。 期 望 能 够 找到 “ 轰 


原因 类 型 ”这 一 形式 


用 Re 表示; D 表示 “事故 原因 类 型 ”字段 , D 在 N 中 出 现 的 频 


轰 龄 ) 有 mn 个 分 类 ， 


则 使 用 相应 x 位 二 进 制 进行 表示 ， 其 中 x 与 n 满足 关系 : 


规则 的 后 件 “ 事 故 原因 类 型 ”作为 分 类 属性 ， 代 表 造 成 事 


min{x|2” >n)} 


G3) 


故 的 原因 ， 事故 原因 共有 9 种 ( 见 表 8)， 用 二 进 制 表示 的 方法 


同 规则 前 件 中 的 特征 属性 。 表 9 描述 了 数据 中 驾龄 字段 的 分 类 。 
表 8 事故 原因 类 型 分 类 与 对 照 表 
Label Mean 
1 追尾 上 
逆行 
3 倒车 世 
4 停车 时 未 挂 低速 档 、 未 拉 驻 车 制 动 ， 导 致 车 辆 滑行 的 
5 开关 车 门 的 
6 违反 交通 信号 的 
7 未 按 规 定 让 行 的 
8 依法 应 负 全 责 的 其 他 情形 
9 不 符合 前 8 款 规 定 或 者 双方 同时 具有 上 述 情形 的 


数 用 R, 表示 ; C,D 同时 出 现在 数据 集中 的 频数 计 为 Re Rn ， 
SG) 为 规则 的 支持 度 ， 则 SG) 的 定义 为 


RAR 
sD -To G) 
CQ 为 规则 的 置信 度 ，C(D) 的 定义 为 
CH= @ 
同 理 规则 的 获 盖 度 CR(D) 定 义 为 
ReUR, 
CR = Te 0) 
常量 系数 a，b，c 是 本 模型 的 关键 所 在 ， 可 由 用 户 根据 需 


要 进行 调整 ， 从 而 对 规则 评价 的 偏重 可 以 发 生 相应 的 改变 ， 使 
得 进化 沿用 户 期 望 的 方向 进行 ， 提 高 挖掘 的 准确 性 。 
2.3.3 遗传 算 子 设计 

1) 选 择 算 子 

选择 操作 使 用 轮 盘 赌 操作 ， 其 具体 过 程 描 述 如 下 所 示 : 对 
于 Apriori 算法 选 出 的 初始 种 群 中 的 每 个 染色 体 , 计算 其 适应 度 
值 ， 将 所 有 的 适应 度 值 刻画 到 一 个 圆 盘 上 ， 即 适应 度 值 的 大 小 


通过 Apriori 算法 得 出 事故 频繁 项 集 , 书 
征 属 性 与 分 类 属性 的 项 自 


繁 项 : [培训 方式 


' 驾 校 培训 '， 轰 龄 


="11]， 其 中 培训 方式 有 ”驾校 培训 ”与 ” 
; 可 设 ' 驾 校 培训 ' 对 应 编 
对 应 ”10”， 若 此 属性 未 出 现在 此 频繁 项 
编码 设计 同 理 。 在 程序 中 构造 J 


中 n=2, x 最 小 取 2 


“00”, 其 他 字段 的 


k 选 其 中 同时 含有 特 


芸 ， 作 为 初始 的 规则 进行 编码 。 例 如 频 


力 p 此 人 一 ! 罗 中 


等 龄 1， 事 故 原因 类 型 


培 ” 两 类 , 则 式 (5) 


码 为 " 01”,” 自 培 
P 则 对 应 的 二 进 制 


? 
~ 


于 存放 规则 所 对 应 
AHP 方法 第 选 出 的 


段 所 对 应 的 编码 按 


的 三 进 制 染 色 体 。 列 表 和 
7 个 特征 属性 和 1 个 分 类 
固定 顺序 依次 存 于 列表 当中 。 


个 列表 用 
的 长 度 为 23， 对 应 


表示 在 圆 盘 上 的 面积 。 在 转动 轮 盘 的 过 程 中 ， 单 个 染色 体 的 面 

积 越 大 ， 则 被 选中 的 概率 越 大 。 

2) 交 叉 算 子 

从 ICGA 和 GP 会 议 的 历年 相关 文献 来 看 ， 交 叉 概 率 的 选 

无 固定 的 方法 与 逻辑 ， 一 般 取 0.4~0.99; 但 交叉 概率 取 值 

大 ， 则 不 利于 种 群 中 优秀 基因 的 保存 ， 取 值 过 小 就 会 导致 种 

进化 缓慢 。 在 本 次 交通 事故 数据 处 理 中 经 反复 测试 ， 交 叉 概 

率 为 0.6 时 ， 对 于 进化 速度 和 实验 结果 能 有 一 个 较 好 的 表现 。 
故 设置 交叉 概率 为 0.6, 为 了 在 不 破坏 种 群 的 基因 多 样 性 的 


强 滨 轩 


届 性 , 每 个 属性 字 


前 提 下 加 快 种 群 的 进化 速度 ， 使 用 选择 算 子 选择 出 父 本 和 母 本 
后 ， 按 单 点 交叉 随机 产生 交叉 位 ， 形 成 两 个 新 的 个 体 ， 考 虑 到 
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录用 稿 邓 晓 衡 ， 等 : 基于 AHP 和 混合 Apriori-Genetic 算法 的 交通 事 政 因 分 析 模 型 
在 挖掘 中 为 了 找到 更 优 的 规则 , 将 新 产生 的 个 体 按 适 应 度 排序 ， 当 用 户 对 规则 评价 的 偏重 发 生 了 改变 ， 如 更 加 关注 置信 度 
再 从 中 挑选 出 大 于 适应 度 阔 值 的 个 体 加 入 到 解 中 ;同时 也 将 这 时 ， 则 可 以 使 置信 度 的 系数 b 相对 a 和 c 而 言 较 大 ， 最 终 得 出 


些 挑选 出 的 个 体 加 入 到 原先 的 种 群 ， 从 而 丰富 种 群 。 这 样 既 保 ”的 期 望 规则 集会 在 置信 度 上 有 更 好 的 表现 。 此 处 以 
存 了 父 本 和 母 本 的 基因 ， 又 在 进化 的 过 程 中 保持 了 种 群 的 多 样 。 a=1>b=c=0.5; b=1>a=c=0.5 以 及 c=1>a=b=0.5 进行 三 组 不 同 仿 


性 。 重 下 的 规则 挖掘 实验 ， 得 出 的 适应 度 最 高 的 期 望 规则 集 分 别 如 
3) 变 异 算 子 表 11~13 所 示 。 
在 遗传 算法 中 使 用 可 变 的 变异 概率 ， 设 P 为 变异 概率 。 具 表 10 a=b=c=1 条 件 下 挖掘 规则 结果 表 
体 描述 如 下 : 规则 适应 度 支持 度 置信 度 覆 兰 度 
这 (个 体 的 适应 度 > 群体 的 平均 适应 度 ) male','time2'=>"] 172 028 0.71 0.73 
then {P 取 一 个 相对 较 小 的 值 或 接近 0;} 'Driving experience 1', female'=>'4' 1.71 032 0.88 0.51 
clse {P 值 取 一 个 相对 较 大 的 值 ;} school taining > 1.66 037 0.79 0.54 
3 ”实验 结果 ‘male', rain'=>"1' 173 0.44 0.67 0.62 
'self training', rain'=>'7' 1.91 041 0.83 0.67 
3.1 实验 设计 'selftraining','male', time3=>7' 1.55 033 0.75 0.47 
采用 保留 “事故 原因 类 型 "属性 类 别 比例 的 分 层 采样 ， 随 机 'school training , 'male', "age 2=>"7' 132 0.25 071 0.36 
Ts ”采样 选取 数据 集中 70% 的 数据 作为 测试 集 , 用 来 寻找 关联 规则 ; 
总 30% 为 验证 集 ， 验 证 生成 的 关联 规则 在 验证 集 上 的 置信 度 。 层 Te 
a i 
村 天气 状况 、 风 力 风向 共 7 个 字段 作为 事故 成 因 分 析 的 主要 影响 | 证 府 答 ，。 坟 
© 因素 ,和 原因 类型 字 和 “起 作为 Apriori 和 遗传 算法 ‘male','time2'—>"1' 1.00 0.28 0.355 0.365 
< 二 的 输入 。 分 别 使 用 单独 的 Apriori 算法 , 单独 的 遗传 算法 以 及 混 'Driving experience 1', female=>4 1.015 0.32 0.44 0.255 
©O 合 的 Apriori-Genetic 算法 对 事故 历史 数据 进行 处 理 ， 比 较 数据 School training =>'1' 1.035 0.37 0.395 0.27 
挖掘 结果 并 进行 性 能 测试 。 同 时 在 找到 的 期 望 规则 数量 上 ， 将 male, ‘rain—>"1 1.085 044 0335 031 
OO 混合 算法 与 C4.5 及 随机 森林 等 其 他 的 机 器 学 习 算 法 进行 比较 ， ‘self training’, rain’=>"7' 116 041 0415 0335 
生 以 验证 其 性 能 。 实 验 环境 为 ntel Core i5-4200H 处 理 器 ，8 GB 'self training',male', ‘time 3'=>'7' 0.94 0.33 0.375 0.235 
i 内 存 ，Windows7 an python 语言 。 'school training', 'Northeasterly wind', 
>< ”3.2 混合 算法 的 控 气 结 ee 0.881 0.42 0.298 0.163 
全 为 便于 比较 ， FCD (参见 式 (4)) 中 常 系数 
二 a=b=c=1。 对 于 预 处 理 后 的 数据 集 实施 混合 的 Apriori-Genetic 算 表 12 b=1，a=c=0.5 条 件 下 挖掘 规则 结果 表 
CD) 法， 支持 度 闵 值 设 为 0.1， 在 表 10 中 列 出 了 使 用 本 文 提出 的 模 i 人 
型 找到 的 部 分 适应 度 较 高 的 期 望 规则 ， 规 则 后 面 分 别 附 有 相应 en ne 
的 适应 度 ， 支 持 度 ， 置 信 度 ， 和 履 盖 度 。 'Driving experience 1', female=>4， 1.295 0.16 0.88 0.255 
第 一 条 规则 男性 ,8-12 点 “> 事故 类 型 ! 的 适应 度 为 1.72， 'school training > 1.245 0.185 0.79 027 
其 支持 度 为 0.28， 置 信 度 为 0.71， 禾 盖 度 为 0.73， 从 规则 中 可 ‘male’, rain—>"1' 12 022 067 031 
以 看 出 驾驶 员 为 男性 & 时 间 为 上 午 8-12 点 的 组 合 中 ， 经 常会 出 'self training', rain'=>"7' 1.37 0.205 0.83 0.335 
现 事故 原因 为 追尾 的 事故 ， 且 规则 具有 较 高 的 履 盖 度 。 规 则 '0- 


'Driving experience 1', 'rain’=>'3' 1.173 0.097 0.79 0.286 


4 年 驾龄 , ' 女 性 =>' 事 故 类 型 4 的 适应 度 为 1.71， 它 显示 了 女性 
驾驶 员 在 驾龄 偏 低 的 情况 下 ， 易 发 生 类 型 4 的 事故 ， 这 也 显示 
了 年 轻 女性 司机 在 技术 上 还 需 多 加 练习 。 规 则 ' 自 培 '，' 雨 天 '=>， 
事故 类 型 7' 显 示 ， 对 于 驾驶 员 为 自 培 形式 的 在 雨天 容易 发 生 未 
按 规定 让 行 的 事故 ， 说 明 未 经 驾校 培训 的 驾驶 员 在 交通 规则 的 将 表 11 与 10 对 比分 析 可 知 ， 表 11 结果 集中 新 增 了 规则 
学 习 上 需要 加 强 。 而 当 驾 驶 员 为 驾校 培训 &18-25 岁 的 男性 时 ， (黑体 加 粗 部 分 ): ' 驾 校 培训 ', ' 东 北 风 ', ' 雨 天 '=>' 事 故 类 型 6'; 
出 现 事 故 原因 为 未 按 规定 让 行 的 事故 概率 亦 较 高 。 推 测 可 能 是 。 由 天 气 历史 数据 可 知 ， 贵 阳 地 区 的 风向 长 期 以 冬季 的 东北 风 和 
年 轻 人 驾驶 技术 不 娴熟 导致 。 通 过 详细 分 析 得 出 的 交通 事故 规 夏季 
则 结果 集 ， 可 以 找 出 有 意义 的 组 合 规则 ， 对 于 交通 事故 的 针对 ”冬季 
性 预防 和 科学 的 管理 具有 重要 的 意义 。 信和 度 


'self training','male', ‘time 3'=>"7' 1.15 0.165 0.75 0.235 


'school training ', "male', age2=>7' 1.015 0.125 0.71 0.18 


'Driving experience 2','time 3'=>'7' 1.037 0.112 0.82 0.105 


7 


"| 
Bs 


气 
的 西南 风 为 主 ， 针 对 此 规则 建议 可 以 加 强 驾 校 培 训 学 员 在 
起 东北 风 且 雨天 时 的 安全 教育 ， 此 规则 的 支持 度 较 高 ， 置 
为 0.596， 但 有 覆盖 度 的 值 偏 低 ， 其 余 规则 与 表 10 基本 保持 
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一 致 。 大 ， 简 单 遗 传 算法 和 混合 算法 所 找到 的 规则 数 趋 于 接近 ， 效 果 
将 表 12 与 10 对 比分 析 易 知 ,在 重点 关注 置信 度 的 情况 下 ， 相差 不 大 。 

结果 集中 同样 找到 了 两 条 适应 度 较 高 的 新 规则 : '0-4 年 驾龄 ,， 
' 雨 天 '=>' 事 故 类 型 3' 以 及 '5-11 年 驾龄 '，' 下 午 13-18 点 =>' 事 故 etn sot 
类 型 7， 它 们 都 具有 较 高 的 置信 度 ， 但 由 于 其 他 指标 值 不 高 的 人 

原因 ， 导 致 在 系数 全 部 相等 时 ， 在 混合 算法 的 挖掘 中 适应 度 不 | 
高 而 未 展现 出 来 ， 其 余 规则 亦 与 表 10 基本 保持 一 致 。 将 表 13 
与 10 对 比分 析 可 知 , 在 重点 关注 覆盖 度 的 情况 下 , 发现 了 一 条 
适应 度 较 高 的 新 规则 : ' 女 性 '，' 自 培 ，' 雨 天 '=>' 事 故 类 型 1 ， 其 
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Fitness Value 


余 规则 同 表 10 保持 一 致 。 可 
对 于 适应 度 函数 中 系数 的 不 同 设置 体现 了 用 户 对 于 不 同 指 ST Re 
标的 关注 程度 ， 而 用 户 的 偏重 会 在 接 下 来 混合 算法 的 挖掘 结果 2 Dg iperenoe 1 Termale = 
edi i me 
掘 的 目的 ， 提 高 模型 分 析 的 精确 性 。 7 endo ta male age 2 7 
A i 图 3 “相关 期 望 规则 在 测试 集 与 验证 集 上 适应 度 的 比较 
规则 适应 度 支持 度 /2 置信 度 /2 覆盖 度 
male',time2' 一 >'1 1.225 0.14 0.355 0.73 
'Driving experience 1', 'female=>'4' 1.11 0.16 0.44 0.51 Numbers 大 攻 到 
'School training ' 一 >'] 1.12 0.185 0.395 0.54 | | 
'male', 'rain'=>"1" 1.175 0.22 0.335 0.62 ed 
'self training', ‘rain'=>"7" 1.29 0.205 0.415 0.67 | 
'self training','male', ‘time 3'=>"7' 1.01 0.165 0.375 0.47 L S| 
"female', 'self training', 'rain'’=>'1' 1.059 0.089 0.31 0.66 | 
3.3 与 其 他 算法 的 性 能 比较 2 
对 于 混合 算法 找 出 的 规则 在 验证 集中 计算 其 相应 的 适应 度 
值 ， 图 3 显示 了 规则 在 测试 集 与 验证 集中 适应 度 的 比较 。 可 以 Numbers A 
看 出 ， 除 规则 r6 差别 较 大 外 ， 其 他 规则 总 体 较为 接近 ， 说 明 上 要 
述 找到 的 规则 是 可 靠 的 。 gg 
接 下 来 只 使 用 Apriori 算法 对 AHP 选 出 的 字段 数据 进行 控 | 
掘 ， 得 出 关联 规则 ， 只 使 用 遗传 算法 对 选 出 的 字段 数据 进行 控 ¥ 
据 ， 初 始 种 群 随机 生成 ， 其 种 群 大 小 和 混合 算法 的 初始 种 群 相 " 
等 ， 函 数 适 应 度 的 设计 同 式 (4)， 对 于 遗传 算法 中 的 遗传 算 子 的 ee 


设计 与 Apriori-Genetic 混合 算法 保持 一 至。 通过 设置 不 同 的 支 
持 度 和 遗传 代数 对 比 三 种 算法 的 实验 效果 。 
图 4 上 图 所 示 是 混合 算法 与 单独 Apriori 算法 在 不 同文 持 同时 对 比 混合 算法 与 C4.5,， 随机 森林 等 其 他 算法 获得 的 期 
度 下 产生 的 期 望 规则 (这 里 定义 “期 望 规则 ”的 适应 度 值 大 于 1.0，，” 望 规则 数量 ， 图 5 显示 了 在 不 同 支持 度 阔 值 下 不 同 算法 获得 的 
从 而 保证 规则 的 可 靠 性 ) 在 数量 上 的 比较 , 其 中 混合 算法 的 遗传 ”期 望 规则 数量 。 数据 显示 混合 算法 的 寻找 能 力 要 优 于 C4.5 与 随 
代数 为 100; 可 以 看 出 在 相同 的 支持 度 下 ， 由 于 混合 算法 使 用 机 森林 算法 ， 验 证 了 混合 算法 的 优秀 性 能 。 

了 支持 度 、 置 信和 度 、 禾 盖 度 作为 规则 的 评价 指标 ， 加 上 遗传 算 图 6 所 示 是 混合 算法 与 单独 apriori 算法 在 不 同 支持 度 下 运 
法 的 优化 ， 故 混合 算法 能 找到 更 多 且 更 符合 用 户 期 望 的 规则 ， 行 结束 的 时 间 比 较 ， 以 及 混合 算法 与 单独 遗传 算法 在 相同 的 文 
而 Apriori 在 支持 度 增 大 时 ， 得 到 的 期 望 规则 却 逐 渐 减 少 。 图 4 ” 持 度 (0.1) 不 同 的 遗传 代数 下 运行 结束 的 时 间 比 较 。 由 图 可 知 
下 图 所 示 是 混合 算法 与 单独 遗传 算法 在 相同 的 支持 度 (0.1) 不 ” 当 遗 传代 数 较 少时 混合 算法 的 表现 要 优 于 单独 的 遗传 算法 ， 但 
同 的 遗传 代数 下 产生 的 期 望 规则 数量 比较 。 而 在 遗传 代数 较 少 。 混合 算法 的 运行 时 间 要 差 于 单独 的 Apriori 算法 。 
时 ， 由 于 单独 遗传 算法 的 初始 种 群 为 随机 生成 ， 发 现 的 期 望 规 为 了 降低 混合 算法 的 时 间 复 杂 度 ， 在 读 取 数据 并 计算 适应 
则 数 相 对 混合 算法 较 少 ， 但 随 着 遗传 代数 的 增加 ， 搜 索 空间 增 。 上 度 函 数 时 通过 开启 多 线程 协作 ， 可 以 降低 算法 的 时 间 复 杂 度 。 


图 4 不 同 算法 下 生成 期 望 规则 在 数量 上 的 比较 
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7 所 示 是 并 行 化 后 的 混合 算法 与 单独 apriori 算法 在 不 同 支持 
度 下 运行 的 时 间 比 较 ， 以 及 并 行 化 后 的 混合 算法 与 单独 遗传 算 


Im 


去 在 相同 的 支持 度 (0.1) 不 同 的 遗传 代数 下 运行 的 时 间 比 较 。 
图 可 知 混合 算法 在 并 行 化 后 的 运行 时 间 有 较 大 改善 ， 接 近 于 
和 独 的 Apriori 算法 。 
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图 5 不 同 


法 下 获得 的 期 望 规则 在 数量 上 的 比较 
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4 ”结束 语 
本 文 主要 面向 交通 事故 数据 集 的 数据 挖掘 工作 ， 针 对 交通 

事故 数据 复杂 的 多 维 多 层 特点 ， 在 对 比 现 有 事故 处 理 算 法 的 基 
础 上 , 引入 了 AHP 方法 , 同时 设计 了 混合 的 Apriori-Genetic 算 
法 用 于 挖掘 交通 事故 成 四 ， 并 建立 了 事故 成 因 分 析 模 型 ， 控 掘 
事故 成 因 。 通 过 对 比 混合 算法 与 传统 算法 的 性 能 ， 表 明 混 合算 
法 具有 可 行 性 ， 同 时 实验 结果 表明 该 模型 可 以 提高 挖掘 的 准确 
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性 并 减少 无 用 规则 的 产生 , 具有 较 好 的 应 用 价值 。 但 AHP 矩阵 
的 构造 终究 带 有 一 定 的 主观 性 ， 如 何 消除 这 一 误差 将 是 下 一 步 
的 研究 工作 。 
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